# -*- coding: utf-8 -*-
from urllib.request import urlopen

content = urlopen('https://en.wikipedia.beta.wmflabs.org/robots.txt')
print(content.read())

# 计算机只能处理0和1两个数字,所以想要处理文本,必须把文本;
# 变成0和1这样的数字,最早的计算机使用八个0和1来表示一个字
# 节,所以最大能够表示的整数是255=11111111。如果想要表示
# 更大的数,就必须使用更多的字节。

# 由于计算机是由美国人发明的,所以最早只有127个字符被编写
# 进计算机，也就是常见的阿拉伯数字,字母大小写,以及键盘上
# 的符号。这个编码被称为ASCII编码,比如大写的字母A的ASCII
# 编码为65 , 65这个数字再被转换成二进制01000001 ,就是计算
# 机所真正处理的东西。

# 那么很显然, ASCII编码没办法表示我们的中文,于是中国就制定了自己的GB2312编码,并且兼容ASCII编码

# Python3字符串默认使用Unicode编码,所以Python3支持多语言。
# 以Unicode表示的str通过encode(方法可以编码为指定的bytes
# 如果bytes使用ASCII编码,遇到ASCII码表没有的字符会以\x##
# 表示,此时只用"\x##'.decode('utf-8')就可以了。

print(content.read().decode('utf-8'))
